@莫凯洁:现代汉语词汇语体属性探测模型研究

【摘要】本文立足于正式—非正式的语体维度,提出了基于机器学习方法的现代汉语词汇语体属性探测模型,旨在实现符合语体连续统特性的词语正式度测量。研究首先构建了现代汉语语体语料库,设计了语体分类特征,并基于《现代汉语词典》(第7版)中的〈书〉〈口〉标注数据训练语体属性自动分类模型。模型五折验证准确率达87.26%。进一步的误例分析发现:词典中的语体标注存在部分缺漏、过时、不对称等问题,而基于语体语料库的语境特征能有效修正数据偏差。为了更好地服务词汇语体教学,本研究使用上述模型对《国际中文教育中文水平等级标准》词表和《义务教育常用词表(草案)》主表的共25500个词语进行了语体正式度测量,并分析了该方法在词典编纂和教学方面的应用。

引言

语料库构建

模型构建

Pasted image 20250509133629.png

研究将正式-非正式维度的词汇语体属性分析问题建模为二分类任务,使用多种机器学习模型构建分类器开展实验,包括支持向量机(Support Vector Machine,SVM)、岭回归分类(Ridge Regression Classifier,RRC)、随机森林(Random Forest,RF)和逻辑回归(Logistic Regression,LR)。

实验与结果

Pasted image 20250509133942.png

为探测词本身特征和语料库语境特征的重要性,实验使用特征排列法计算了各个特征的重要性分数。RF模型(词本身特征+语料库语境特征训练)使用特征排列法后得到的各个特征重要性。
Pasted image 20250509134006.png

误例分析

模型误差校正
词向量特征的 svm 模型,容易存在“文言偏见”,即“一个词语越接近文言表达,正式度越高”。
可以引入RF模型(词本身特征+语料库语境特征)来矫正训练数据中的“文言偏见”。

词表语体属性预测

《国际中文教育中文水平等级标准》词表语体属性预测
《义务教育常用词表(草案)》主表语体属性预测